pt
Lista de Produtos de IA
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
Página Inicial
Notícias de IA
AI Daily
Guia de Monetização
Tutoriais de IA
Navegação de Ferramentas de IA
Biblioteca de Produtos de IA
pt
Lista de Produtos de IA
Pesquise as tendências globais de produtos de IA
Pesquise informações globais de IA e descubra novas oportunidades de IA
Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA
Tipo :
Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA
2023-11-02 15:21:41
.
AIbase
.
2.8k
Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps
O Grupo Ant Financial, em conjunto com a Universidade de Pequim, lançou um benchmark de avaliação de modelos de linguagem grandes para a área de DevOps. O benchmark inclui questões de múltipla escolha em 8 categorias: planejamento, codificação, construção, teste e lançamento, entre outras. São 4850 questões no total. O benchmark também faz uma subdivisão para tarefas AIOps. Os resultados da avaliação mostram que as pontuações dos modelos são bastante próximas.
2023-09-25 09:54:21
.
AIbase
.
1.6k
Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo
A quantidade de parâmetros não é o único critério para avaliar grandes modelos; diferentes conjuntos de avaliação levam a grandes diferenças na classificação; o aumento da proporção de questões subjetivas também afeta a classificação; a imparcialidade da avaliação é facilmente questionada; Organizações de avaliação de terceiros, como OpenCompass e FlagEval, estão começando a receber atenção; O meio acadêmico acredita que também devem ser considerados a robustez e a segurança do modelo, entre outras dimensões; Um método de avaliação verdadeiramente abrangente e eficaz ainda está em exploração.